The spread of rumors along with breaking events seriously hinders the truth in the era of social media. Previous studies reveal that due to the lack of annotated resources, rumors presented in minority languages are hard to be detected. Furthermore, the unforeseen breaking events not involved in yesterday's news exacerbate the scarcity of data resources. In this work, we propose a novel zero-shot framework based on prompt learning to detect rumors falling in different domains or presented in different languages. More specifically, we firstly represent rumor circulated on social media as diverse propagation threads, then design a hierarchical prompt encoding mechanism to learn language-agnostic contextual representations for both prompts and rumor data. To further enhance domain adaptation, we model the domain-invariant structural features from the propagation threads, to incorporate structural position representations of influential community response. In addition, a new virtual response augmentation method is used to improve model training. Extensive experiments conducted on three real-world datasets demonstrate that our proposed model achieves much better performance than state-of-the-art methods and exhibits a superior capacity for detecting rumors at early stages.
translated by 谷歌翻译
现有的假新闻检测方法旨在将新闻分类为真或错误,并提供真实的解释,从而实现出色的表现。但是,他们经常根据有限的新闻报道和揭穿延误来定制手动事实检查报告的自动解决方案。如果尚未对一段新闻进行事实检查或揭穿事实,通常会在各种媒体上传播一定数量的相关原始报告,其中包含人群的智慧来验证新闻声明并解释其判决。在本文中,我们提出了一个新颖的粗到十五级别的级联证据依据(COFCED)神经网络,以根据此类原始报告来解释假新闻检测,从而减轻了对事实检查的依赖性。具体而言,我们首先使用层次结构编码器来用于Web文本表示,然后开发两个级联的选择器,以粗略至上的方式在所选的Top-K报告之上选择最可解释的句子。此外,我们构建了两个可解释的假新闻数据集,这些数据集可公开使用。实验结果表明,我们的模型显着优于最先进的基线,并从不同的评估角度产生高质量的解释。
translated by 谷歌翻译
关于信息检索的许多最新研究集中在如何从一项任务(通常具有丰富的监督数据)转移到有限的其他各种任务,并隐含地假设可以从一个任务概括到所有其余的任务。但是,这忽略了这样一个事实,即有许多多样化和独特的检索任务,每个任务都针对不同的搜索意图,查询和搜索域。在本文中,我们建议使用几乎没有散热的检索,每个任务都有一个简短的描述和一些示例。为了扩大一些示例的功能,我们提出了针对检索器(即将到来)的及时基本查询生成,该查询将大型语言模型(LLM)作为几个弹片查询生成器,并根据生成的数据创建特定于任务的检索器。通过LLM的概括能力提供动力,即要来源使得可以仅基于一些示例{没有自然问题或MS MARCO来训练%问题生成器或双重编码器,就可以仅基于一些示例{没有}来创建特定于任务的端到端检索。出乎意料的是,LLM提示不超过8个示例,允许双重编码器在MARCO(例如Colbert V2)上训练的大量工程模型平均在11个检索套件中超过1.2 NDCG。使用相同生成数据的进一步培训标准尺寸的重新级别可获得5.0点NDCG的改进。我们的研究确定,查询产生比以前观察到的更有效,尤其是在给出少量特定于任务知识的情况下。
translated by 谷歌翻译
动机:癌症是异质的,影响了个性化治疗的精确方法。准确的亚型可以导致癌症患者的生存率更好。高通量技术为癌症亚型提供了多个OMIC数据。但是,由于OMICS数据的大量和高维度,精确的癌症亚型仍然具有挑战性。结果:这项研究提出了基于MLP和变压器块的深度学习方法拟议的亚型形式,以提取多摩学数据的低维表示。 K-均值和共识聚类也用于获得准确的亚型结果。我们比较了TCGA 10癌症类型的其他最先进的亚型方法。我们发现,基于生存分析,亚型形式可以在5000多个肿瘤的基准数据集上表现更好。此外,亚型形式还取得了泛滥亚型的出色结果,这可以帮助分析分子水平上各种癌症类型的共同点和差异。最后,我们将亚型格式应用于TCGA 10类型的癌症。我们确定了50种基本生物标志物,可用于研究靶向癌症药物并促进精密医学时代的癌症治疗。
translated by 谷歌翻译
美国食品药品监督管理局(FDA)推荐的产品特定指南(PSG)对促进和指导通用药物产品开发有助于。为了评估PSG,FDA评估者需要花费大量时间和精力来手动从参考列出的药物标签中手动检索吸收,分布,代谢和排泄(ADME)的支持性药物信息。在这项工作中,我们利用最先进的预训练的语言模型自动将来自FDA批准的药物标签的药代动力学部分中的ADME段落标记,以促进PSG评估。我们通过微调从变形金刚(BERT)模型的预训练的双向编码器表示,采用了转移学习方法来开发新颖的ADME语义标签应用,可以自动从药物标签中自动检索ADME段落而不是手动工作。我们证明,对预训练的BERT模型进行微调可以胜过传统的机器学习技术,实现高达11.6%的绝对F1改进。据我们所知,我们是第一个成功应用BERT来解决ADME语义标签任务的人。我们进一步评估了使用一系列分析方法,例如注意力相似性和基于层的消融,进一步评估了预训练和微调对BERT模型整体性能的相对贡献。我们的分析表明,通过微调学到的信息集中在BERT的顶层中的特定于任务知识上,而预先训练的BERT模型的好处来自底层。
translated by 谷歌翻译
长尾分布式数据的分类是一个具有挑战性的问题,它遭受了严重的班级不平衡,因此只有几个样本的尾巴阶级表现不佳。由于样本的匮乏,在将预审计的模型转移到下游任务时,在尾部类中学习对于微调尤其具有挑战性。在这项工作中,我们简单地修改了标准微调,以应对这些挑战。具体而言,我们提出了一个两阶段的微调:我们首先用类平衡的重新释放损失微调了预审计模型的最后一层,然后我们执行标准的微调。我们的修改有几个好处:(1)仅通过微调模型参数的一小部分,同时保持其余部分未触及,从而利用了预告片; (2)它允许模型学习特定任务的初始表示;重要的是(3)它可以保护学习尾巴的学习免于模型更新期间处于不利地位。我们对文本分类的两类和多级任务的合成数据集进行了广泛的实验,以及用于ADME的现实世界应用(即吸收,分布,代谢和排泄)语义标记。实验结果表明,所提出的两阶段微调既优于传统损失,又超过了微调,并且在上述数据集上进行了重新调整损失。
translated by 谷歌翻译
本报告介绍了CVPR 2022中RXR-HABITAT竞赛获胜的方法。该竞赛解决了连续环境中的视觉和语言导航问题(VLN-CE),该问题要求代理商遵循逐步遵循步骤自然语言指示达到目标。我们为任务提供了模块化的计划与控制方法。我们的模型由三个模块组成:候选Waypoints预测器(CWP),历史增强的计划者和试用控制器。在每个决策循环中,CWP首先根据来自多个视图的深度观察来预测一组候选航路点。它可以降低动作空间的复杂性并促进计划。然后,采用历史增强的计划者选择候选航路点之一。计划者还编码历史记忆以跟踪导航进度,这对于长途导航特别有效。最后,我们提出了一个名为Trutout的非参数启发式控制器,以执行低级动作以达到计划的子目标。它是基于反复试验的机制,该机制可以帮助代理避免障碍并避免卡住。所有三个模块都在层次上工作,直到代理停止为止。我们进一步采取了视力和语言导航(VLN)的最新进展,以改善基于大规模合成域内数据集,环境级数据增强和快照模型集成等性能。我们的模型赢得了2022年RXR-HABITAT竞赛,比NDTW和​​SR指标的现有方法分别相对改善,相对改善为48%和90%。
translated by 谷歌翻译
多尺度特征层次结构已在计算机视觉区域的成功中得到了见证。这进一步激发了研究人员设计自然语言处理的多尺度变压器,主要是基于自我发项机制。例如,限制跨头部的接收场或通过卷积提取局部细粒度特征。但是,大多数现有作品都直接建模了本地功能,但忽略了单词边界信息。这导致了缺乏解释性的多余和模棱两可的注意力分布。在这项工作中,我们在不同的语言单元中定义了这些量表,包括子字,单词和短语。我们通过基于单词边界信息和短语级别的先验知识之间建立量表之间的关系来构建多尺度变压器模型。提出的\ textbf {u} niversal \ textbf {m} ulti \ textbf {s} cale \ textbf {t} ransformer,即在两个序列生成任务上评估。值得注意的是,它在几个测试组上的强大基线上产生了一致的性能,而无需牺牲效率。
translated by 谷歌翻译
传统的推荐系统旨在根据观察到的群体的评级估算用户对物品的评级。与所有观察性研究一样,隐藏的混乱,这是影响物品曝光和用户评级的因素,导致估计系统偏差。因此,推荐制度研究的新趋势是否定混杂者对因果视角的影响。观察到建议中的混淆通常是在物品中共享的,因此是多原因混淆,我们将推荐模拟为多原因多结果(MCMO)推理问题。具体而言,为了解决混淆偏见,我们估计渲染项目曝光独立伯努利试验的用户特定的潜变量。生成分布由具有分解逻辑似然性的DNN参数化,并且通过变分推理估计难治性后续。控制这些因素作为替代混淆,在温和的假设下,可以消除多因素混淆所产生的偏差。此外,我们表明MCMO建模可能导致由于与高维因果空间相关的稀缺观察而导致高方差。幸运的是,我们理论上证明了作为预处理变量的推出用户特征可以大大提高样本效率并减轻过度装箱。模拟和现实世界数据集的实证研究表明,建议的深度因果额外推荐者比艺术最先进的因果推荐人员对未观察到的混乱更具稳健性。代码和数据集在https://github.com/yaochenzhu/deep-deconf发布。
translated by 谷歌翻译
已经表明,在一个域上训练的双编码器经常概括到其他域以获取检索任务。一种广泛的信念是,一个双编码器的瓶颈层,其中最终得分仅仅是查询向量和通道向量之间的点产品,它过于局限,使得双编码器是用于域外概括的有效检索模型。在本文中,我们通过缩放双编码器模型的大小{\ em同时保持固定的瓶颈嵌入尺寸固定的瓶颈的大小来挑战这一信念。令人惊讶的是,令人惊讶的是,缩放模型尺寸会对各种缩放提高检索任务,特别是对于域外泛化。实验结果表明,我们的双编码器,\ textbf {g} enovalizable \ textbf {t} eTrievers(gtr),优先级%colbert〜\ cite {khattab2020colbertt}和现有的稀疏和密集的索取Beir DataSet〜\ Cite {Thakur2021Beir}显着显着。最令人惊讶的是,我们的消融研究发现,GTR是非常数据的高效,因为它只需要10 \%MARCO监督数据,以实现最佳域的性能。所有GTR模型都在https://tfhub.dev/google/collections/gtr/1发布。
translated by 谷歌翻译